home *** CD-ROM | disk | FTP | other *** search
/ The PC-SIG Library 9 / The PC-SIG Library on CD ROM - Ninth Edition.iso / 001_100 / DISK0088 / DISK0088.ZIP / PRINTDOC < prev    next >
Text File  |  1987-05-04  |  50KB  |  1,037 lines

  1.                                                                  1
  2.  
  3.  
  4.  
  5.  
  6.  
  7.  
  8.  
  9.  
  10.  
  11.  
  12.  
  13.  
  14.  
  15.  
  16.  
  17.  
  18.  
  19.  
  20.                                  EPISTAT
  21.                            Statistical Package
  22.                       for the IBM Personal Computer
  23.  
  24.                                Version 3.3
  25.  
  26.  
  27.  
  28.  
  29.                       Written by:
  30.    
  31.                          Tracy L. Gustafson, M.D.
  32.  
  33.                              Copyright 1986
  34.                                             
  35.                                                                  2
  36.  
  37.  
  38.  
  39.                               INTRODUCTION
  40.  
  41.    
  42.         EPISTAT is a collection of programs written in BASICA for 
  43.    statistical analysis of small to medium-sized data samples ( < 28
  44.    samples or variables and < 2000 total data entries per file).
  45.    The 25 programs in EPISTAT perform more than 40 common statistical
  46.    tests or functions and provide utilities for data entry, editing,
  47.    printing, graphing, sorting, selecting, transforming and crosstabs.
  48.  
  49.         The programs are intended to be as self-explanatory and user-
  50.    friendly as possible.  You do not need to memorize this guide
  51.    before using the programs.  On the other hand, neither the programs
  52.    nor this manual purport to TEACH the proper use or interpretation
  53.    of statistics.  The user must have some familiarity with the kinds
  54.    of data required and the underlying assumptions appropriate to each
  55.    statistical test.
  56.  
  57.  
  58.    For further explanations of tests, refer to:
  59.  
  60.    1.  Colton, Theodore. Statistics in Medicine. Little, Brown and Co.
  61.          Boston, 1974.
  62.    2.  Fleiss, Joseph.  Statistical Methods for Rates and Proportions.
  63.          John Wiley and Sons. New York, 1981.
  64.    3.  Rosner, Bernard. Fundamentals of Biostatistics. Prindle Weber and
  65.          Schmidt. Boston, 1982.
  66.    4.  Snedecor, George W. and Cochran, William G. Statistical Methods.
  67.          Iowa State Univ. Press. Ames, Iowa, 1978.
  68.    5.  Schlesselman, James. Case-Control Studies. Oxford Univ. Press.
  69.          New York, 1982.
  70.    6.  Zar, Jerrold. Biostatistical Analysis. Prentice-Hall. Englewood
  71.          Cliffs, New Jersey. 1984.
  72.  
  73.  
  74.  
  75.  
  76.    CAVEAT:
  77.         These programs have been tested extensively, but I cannot 
  78.    guarantee that they will work correctly with every possible data set.
  79.    Incorrect results are usually due to errors in format or type of
  80.    data entered.  If you believe you have discovered an error in the
  81.    programs, please write me.  I intend to correct any bugs that are
  82.    brought to my attention.
  83.         It is good practice to regularly compare the results obtained
  84.    by programs in EPISTAT with results obtained by your previous method
  85.    of calculation.  ANY unexpected result should be questioned and
  86.    double-checked by reference to tables or another method of
  87.    calculation.
  88.  
  89.                                                                   3
  90.  
  91.  
  92.  
  93.  
  94.  
  95.  
  96.  
  97.                            INDEX TO EPISTAT
  98.  
  99.    The following statistical tests and functions are available:
  100.                                     
  101.       TEST or FUNCTION                                  PROGRAM NAME
  102.       ----------------                                  ------------
  103.       Analysis of variance (1 and 2-way)...................ANOVA
  104.       Bayes' theorem.......................................BAYES
  105.       Binomial distribution................................BINOMIAL
  106.       Chi-square test and distribvtion.....................CHISQR
  107.       Correlation coefficients.............................CORRELAT
  108.       F distribution.......................................ANOVA
  109.       Fisher's exact test..................................FISHERS
  110.       Linear regression analysis...........................LNREGRES
  111.       Mantel-Haenszel Chi-square test......................MHCHISQR
  112.       Mantel-Haenszel for multiple controls................MHCHIMLT
  113.       McNemar's test.......................................MCNEMAR
  114.       Mean, median and standard deviation..................DATA-ONE
  115.       Normal distribution..................................NORMAL
  116.       Poisson distribution.................................POISSON
  117.       Random sample generator..............................RANDOMIZ
  118.       Rank sum test........................................RANKTEST
  119.       Rates adjusted (direct and indirect).................RATEADJ
  120.       Sample size calculations..........,..................SAMPLSIZ
  121.       Signed rank test.....................................RANKTEST
  122.       Student's T-test and T distribution..................T-TEST
  123.    
  124.  
  125.  
  126.  
  127.  
  128.  
  129.    The following data-handling capabilities are provided:
  130.  
  131.       DATA MANIPULATION                                  PROGRAM NAME
  132.       -----------------                                  ------------
  133.       Determine best test and program names................EPISTAT
  134.       Graph histograms.....................................HISTOGRM
  135.       Graph scattergrams...................................SCATRGRM
  136.       Perform data transformations.........................LNREGRES
  137.       Print data (sorted or input order)...................DATA-ONE
  138.       Print crosstab reports...............................XTAB
  139.       Select specific records..............................SELECT
  140.       Transfer data between EPISTAT files..................FILETRAN
  141.       Transfer data from FORTRAN to EPISTAT files..........FORTRANS
  142.   
  143.                                                                    4
  144.  
  145.  
  146.  
  147.                      SYSTEM REQUIREMENTS FOR EPISTAT
  148.  
  149.                MINIMUM                            OPTIMAL
  150.          IBM PC with 64K RAM                IBM PC with 96K RAM
  151.          One 160K disk drive                Two 320K disk drives
  152.          Monochrome monitor                 Color graphics adapter
  153.          BASICA                             Hi-res color monitor
  154.                                             BASICA
  155.                                             IBM, Epson, Okidata, or
  156.                                             C. Itoh Prowriter printer
  157.                                             with graphics capability
  158.  
  159.  
  160.  
  161.  
  162.                        OVERALL PROGRAM DESCRIPTION
  163.    
  164.  
  165.         All calculations in EPISTAT are performed using single precision.  
  166.    Although it may first appear that double precision would be more 
  167.    appropriate for statistical tests, "double" precision makes little or 
  168.    no real improvement in the accuracy of these programs.  For best 
  169.    results, data entries should be numbers between 1E+7 and 1E-7.  Larger 
  170.    or smaller numbers should be multiplied by an appropriate power of 10 
  171.    before entry and analysis in EPISTAT.  
  172.  
  173.  
  174.         All EPISTAT programs are written so that as much pertinent 
  175.    information about the test as possible can fit on the final screen.  
  176.    This feature allows a summary printed copy to be produced simply by 
  177.    pressing <Shift-PrtSc>.  This will work any time there is a pause in 
  178.    the program display.  Six programs, "DATA-ONE", "HISTOGRM", "RANDOMIZ", 
  179.    "SCATRGRM", "SELECT", and "XTAB" produce printed reports without using 
  180.    <Shift-PrtSc>.  In these, follow program instructions to route output 
  181.    to your printer.  
  182.    
  183.  
  184.         EPISTAT is the introductory program in the EPISTAT package.  
  185.    DATA-ONE is the major data entry, editing, and printing program.  Most 
  186.    of the programs in EPISTAT can evaluate data entered and saved using 
  187.    DATA-ONE.  Many of the programs can, in addition, evaluate summary 
  188.    data.  The programs marked with a star (*) below can evaluate data 
  189.    entered in DATA-ONE.  Non-starred programs provide their own data entry 
  190.    routines.  
  191.  
  192.  
  193.         The EPISTAT disk should be placed in drive A (or other default 
  194.    drive) when loading any program because "EPIMRG" and "EPISETUP.DAT" are 
  195.    used by every program.  Once a program is running, EPISTAT can be 
  196.    removed from drive A if necessary.  
  197.  
  198.                                                                   5
  199.  
  200.  
  201.  
  202.  
  203.                     INDIVIDUAL PROGRAM DESCRIPTIONS
  204.  
  205.  
  206.  
  207.     (1)                          "EPISTAT"
  208.  
  209.         This introductory program lists the available programs. It also aids 
  210.    the user in selecting the best statistical test.  To do so, choose menu 
  211.    option 2 and decide whether you are interested in tests for a single 
  212.    sample, tests for 2 or more samples, other statistical functions, or data 
  213.    handling utilities.  
  214.  
  215.    You are also allowed to specify hardware configuration and colors for a 
  216.    color monitor.  Choose colors 7,0,0 if you have a monochrome monitor 
  217.    connected to the color/graphics adapter.  If yours is not one of the 
  218.    listed printers, check your printer's codes for the typeface you want.  
  219.    For example, the code for elite type on the Prowriter is ESC "E".  If you 
  220.    press Escape then E, the display will show the decimal ASCII codes: 27 
  221.    69.  An alternate method is to press <Alt> and enter the decimal code on 
  222.    the numeric keypad.  Press <Enter> when the complete code is entered.  
  223.  
  224.  
  225.                                 "DATA-ONE" *
  226.  
  227. A. DATA ENTRY: 
  228.    This is the central keyboard data entry program for the EPISTAT package 
  229.    (for non-keyboard data entry, see FILETRAN and FORTRANS).  Initial data 
  230.    entry (Option 1) first asks you to name your samples or variables.  Then 
  231.    type in the data, pressing <Enter> after each entry.  Press the TAB key 
  232.    to back up one or two items on the SAME ROW.  The maximum number of 
  233.    samples or variables (S) allowed is 28 with a color adapter and 7 with a 
  234.    monochrome adapter.  The maximum number of records in each sample is 
  235.    2000/S.  A missing value can be entered by pressing <Enter> only.  Note 
  236.    that this is different than entering a zero (0).  To exit, press key F10.  
  237.    The mean, median and (n-1) standard deviation are then displayed.  When 
  238.    you return to the main menu, SAVE your datafile to disk (Option 5) for 
  239.    future modification or use by other programs in the EPISTAT package.  
  240.         Although all entries in a datafile are treated as numbers by 
  241.    DATA-ONE, it is possible to enter characters (names) in a record.  
  242.    Characters will be treated as zeros in calculations.  Nevertheless, it 
  243.    improves data readability to use the "Sample 1" column for record or case 
  244.    names.  Thus, DATA-ONE allows one to specify a name for each column 
  245.    (variable) and each row (case) in the datafile.  
  246.  
  247. B. DATA MODIFICATION:  
  248.         APPEND (Option 2) allows one to add more observations to a sample at 
  249.    a later session.  EDIT (Option 3) allows one to delete or replace 
  250.    incorrect data entries and to change sample or variable names.  When you 
  251.    return to the main menu, SAVE modified data to disk again.  
  252.  
  253.                                                                    6
  254.  
  255.  
  256.  
  257.  
  258.    
  259. C. PRINTING DATA:
  260.         To view or review a datafile, a printout to screen or printer can 
  261.    be selected (Option 4).  To print a datafile exactly as it was keyed in, 
  262.    request the printout in INPUT order.  DATA-ONE can also print the data 
  263.    SORTED by any selected sample.  Only numeric data is sorted by DATA-ONE, 
  264.    so it will not alphabetize a character field.  Blank records are not 
  265.    sorted, either.  
  266.  
  267.   
  268. D. SAVING DATAFILES and LOADING DATAFILES:
  269.         SAVING data (Option 5), writes your data to disk in a sequential 
  270.    file for later editing, review, or use by another program.  DATA MUST BE 
  271.    SAVED TO DISK before it can be used by other programs in EPISTAT.  Since 
  272.    EPISTAT must be in drive A: (or other default drive) to begin, you will 
  273.    probably want to SAVE datafiles on drive B.  To do so, precede each 
  274.    datafile name with B: (e.g. B:TESTDATA).  Do not enclose filenames in 
  275.    quotation marks.  
  276.  
  277.  
  278.     (3)                            "ANOVA" *
  279.  
  280. A. ONE-way ANOVA:
  281.    PURPOSE:   To compare the means of 3 or more samples.
  282.    DATA REQUIRED:  A DATA-ONE datafile with 3 or more columns/variables.  
  283.    EXAMPLE:   Are the mean ages of three groups of individuals 
  284.               significantly different?  
  285.    COMMENT:   Sample means, (n-1) variances, the mean variance and the 
  286.               variance of the means are displayed.  Total sum of squares, 
  287.               Treatment sum of squares and Error sum of squares are also 
  288.               shown.  Finally the F value, degrees of freedom (df) in the 
  289.               numerator and df in the denominator and p value are given.  
  290.  
  291. B. TWO-way ANOVA:
  292.    PURPOSE:   To evaluate the combined effects of 2 variables on a third 
  293.               variable (ROW and COLUMN effects).  
  294.    DATA REQUIRED:  A DATA-ONE datafile with at least 2 columns and 2 rows.
  295.    EXAMPLE:   How much of the variance in transparency of glass types is
  296.               attributable to the kind of sand and how much to the process
  297.               used to make it?
  298.    COMMENT:   All samples in two-way ANOVA must have the same number of 
  299.               elements.  Sample means, (n-1) variances, Total sum of 
  300.               squares, Row sum of squares, Column sum of squares and 
  301.               Residual are all displayed.  The F value, df in numerator, 
  302.               df in denominator and corresponding p values are shown for 
  303.               both the Row and Column effects.  
  304. C. F-value:
  305.    PURPOSE:   To evaluate the p value associated with a known F value.
  306.    DATA REQUIRED: F value, df in numerator, and df in denominator.
  307.    
  308.    REFERENCE: Snedecor, pp. 258-338.
  309.  
  310.                                                                         7
  311.  
  312.  
  313.  
  314.  
  315.     (4)                            "BAYES"
  316.  
  317. A. Probabilities of false positive and false negative tests:
  318.    PURPOSE:   To evaluate a test or procedure in terms of its sensitivity
  319.               and specificity.
  320.    DATA REQUIRED:  Sensitivity and specificity of a test in relation to
  321.               a specific condition it tests for.  The estimated incidence of
  322.               this condition in the population being tested.
  323.    EXAMPLE:   If a test has a specificity of .99 and a sensitivity of .99, 
  324.               how many false positives will occur in a population where the 
  325.               incidence of this disease is only 100/10,100 ?  
  326.               Answer:  99% of positives will be false positives.
  327.  
  328. B. Probability of disease given a positive test:
  329.    PURPOSE:   To determine the most likely disease given a certain positive 
  330.               test.  
  331.    DATA REQUIRED:  The estimated incidence of several diseases in the test 
  332.               population. (Use `OTHER' as the last disease so that the sum 
  333.               of all percentages is 100).  The probability of a positive 
  334.               test in people known to have each disease (test sensitivities).
  335.    EXAMPLE:   If antithyroid antibodies are found in patients with diabetes,
  336.               thyroiditis and other diseases, what is the a priori 
  337.               probability of each diagnosis given a positive test?  This
  338.               will vary as the relative incidence of these diseases varies
  339.               in the test population.
  340.    COMMENT:   Although the examples deal with the use of medical tests, the 
  341.               same statistical test applies to the relation of any test for
  342.               any condition.
  343.  
  344.    REFERENCE: Fleiss, p. 5.
  345.  
  346.  
  347.     (5)                            "BINOMIAL"
  348.  
  349.    PURPOSE:   The binomial distribution allows calculation of the probability
  350.               of an observed number compared to a known expected.  
  351.    DATA REQUIRED:  A dichotomous variable that has an equal probability of 
  352.               occurring in each of N trials.
  353.    EXAMPLE:   What is the chance of obtaining 2 or fewer heads in 10 tosses 
  354.               of a fair coin?
  355.               Answer:  p = .055
  356.    COMMENT:   BINOMIAL calculates the ONE-tailed probability of the observed 
  357.               number and all more extreme situations.   For example the 
  358.               ONE-tailed probability of 2 heads in 10 tosses of a coin is the 
  359.               sum of the probabilities for 0,1 and 2 heads.
  360.              
  361.    REFERENCE: Colton, p. 151.
  362.  
  363.                                                                         8
  364.  
  365.  
  366.  
  367.     (6)                           "CHISQR"
  368.  
  369. A. Table of data:
  370.    PURPOSE:   The Chi-square program evaluates a possible relationship
  371.               between the row variable and the column variable.  
  372.    DATA REQUIRED:  The counts for each cell of the table.
  373.    EXAMPLE:   Is there a relationship between race and socioeconomic group?
  374.    COMMENT:   2 by 2 tables are evaluated using Yates' correction and the 
  375.               odds ratio and its confidence limits are calculated using 
  376.               Cornfield's method. 
  377.                                         
  378. B. Chi-square value:
  379.    PURPOSE:   To evaluate the p value associated with a known X-square value.
  380.    DATA REQUIRED:  The chi-square value and the degrees of freedom.
  381.  
  382. C. Chi-square test for trend:
  383.    PURPOSE:   To evaluate a possible directional relationship between the 
  384.               row variable and the column variable.  If the row is exposure 
  385.               level and the column is outcome, the relationship is called a 
  386.               `dose-response.' 
  387.    DATA REQUIRED:  A number that describes each `exposure level'.  (If they 
  388.               are not quantifiable, just use consecutive numbers.)  The 
  389.               number of cases and controls at each exposure level.
  390.    EXAMPLE:   Is the risk of lung cancer directionally related to the 
  391.               number of pack-years of smoking?  
  392.   
  393.    REFERENCE: Schlesselman, p.  175,177.
  394.  
  395.  
  396.     (7)                          "CORRELAT" *
  397.  
  398. A. Pearson's correlation coefficient:
  399.    PURPOSE:   To assess the linear relationship between two variables.
  400.    DATA REQUIRED:  A DATA-ONE datafile containing the two samples/variables 
  401.               of interest.  
  402.    EXAMPLE:   How closely do age and blood pressure correlate?
  403.    COMMENT:   The correlation coefficient is calculated and then tested 
  404.               using the Student's T distribution for the probability that 
  405.               such a correlation would occur by chance.  
  406. B. R value:
  407.    PURPOSE:   To evaluate the p value associated with a known R value.
  408.    DATA REQUIRED:  The R value and the number of observations in the sample 
  409.               from which it came.
  410.    
  411. C. Spearman's rank correlation:
  412.    PURPOSE:   To assess the relationship between two variables that are not 
  413.               normally distributed (and only a small sample is available).  
  414.    DATA REQUIRED:  A DATA-ONE datafile containing the 2 variables of interest.  
  415.    EXAMPLE:   How closely do infant's ages at death correlate 
  416.               with birthweight?  
  417.    COMMENT:   The correlation coefficient is calculated but associated  
  418.               p values are not calculated.  
  419.  
  420.    REFERENCE: Colton, p. 212.
  421.  
  422.                                                                          9
  423.  
  424.  
  425.  
  426.  
  427.  
  428.  
  429.     (8)                          "FILETRAN" *
  430.  
  431.    PURPOSE:   To transfer a sample or column of data from one EPISTAT 
  432.               datafile to another.  This makes it unneccesary to re-enter
  433.               data, even if you need to compare 2 samples that are in separate 
  434.               datafiles, or you have a data set with more than 28 variables 
  435.               that you split between two or more datafiles.   You may 
  436.               create a new datafile by selecting one sample from DATAFILE #1 
  437.               and another from DATAFILE #2.  FILETRAN can also combine two 
  438.               samples by APPENDING one to the other.  
  439.    DATA REQUIRED:  Two DATA-ONE datafiles.  First enter the datafile you
  440.               with to replace, add or append a sample TO.  Then enter the
  441.               datafile you wish to transfer data FROM.  After the data
  442.               sample has been added, you may save the data under the original
  443.               filename, or create a new datafile with the additional data
  444.               in it.  You may also cancel the file modification if you find
  445.               you have made an error.
  446.    EXAMPLE:   You performed the same experiment on two different days and  
  447.               analyzed the results separately.  Now you want to combine the 
  448.               results of both experiments and analyze the combined data 
  449.               set.  FILETRAN will allow you to append the two files together
  450.               and save that data under a new filename.
  451.    COMMENT:   If you want to append several columns of data from one · 
  452.               datafile to another, do not return to the main menu until all 
  453.               columns have been appended.  Exiting between appending will 
  454.               leave large blank spaces in the file.  
  455.  
  456.  
  457.     (9)                          "FISHERS"
  458.  
  459.    PURPOSE:   Fisher's exact test evaluates 2 by 2 tables of discrete 
  460.               variables.  
  461.    DATA REQUIRED:  The counts for each of 4 cells of the table.
  462.    EXAMPLE:   Is there a relationship between being bald and dying of
  463.                coronary heart disease?
  464.    COMMENT:   Fisher's exact test is particularly valuable when the 
  465.               Chi-square test is inappropriate because the expected value 
  466.               for a cell is less than 5.  However, this program can 
  467.               evaluate some tables where A+B+C+D > 200.  
  468.  
  469.                                                                         10
  470.  
  471.  
  472.  
  473.  
  474.     (10)                          "FORTRANS"
  475.  
  476.    PURPOSE:   To transfer data from an SDF, FORTRAN, or sequential card 
  477.               image file into EPISTAT DATA-ONE format.  
  478.    DATA REQUIRED:  A sequential card image file of equal-length records
  479.               each delimited by a carriage return and line feed.  The
  480.               end of file must be marked by a CHR(26).  You must know the 
  481.               record length (including spaces, but NOT including the carriage 
  482.               return and line feed at the end of each line), the beginning 
  483.               column number and width of each data item you want to transfer.  
  484.               If your datafile contains understood (but not marked) decimal 
  485.               places, then enter the number of decimal places.  If your 
  486.               datafile contains marked decimal places, then enter 0 for 
  487.               (understood) decimal places.  Finally, specify a missing value 
  488.               code like 9999.  If you have no missing values, then enter a 
  489.               code that does not occur in your data set.  
  490.    EXAMPLE:   You have a FORTRAN file on the mainframe with 10 years worth
  491.               of data.  You can select a subset of that data from a 6-month 
  492.               period and read that into EPISTAT for some pilot analyses 
  493.               before using mainframe time to analyze the entire data set.  
  494.    COMMENT:   FORTRANS can be used to extract selected data items from 
  495.               DBASE(R) "SDF" type files and from LOTUS(R) "PRN" print files.
  496.               Be sure to first look at the datafile you create from DBASE or 
  497.               LOTUS with your word processor in non-document mode to be sure
  498.               that all records are of equal length and that you know which
  499.               columns contain which data items.  Some programs add extra
  500.               spaces here and there when creating an SDF file.  FORTRANS
  501.               will not successfully read a datafile with more that 255 
  502.               columns of data in each record.
  503.  
  504.  
  505.     (11)                           "HISTOGRM" *
  506.  
  507.    PURPOSE:   To graph a data sample according to user specifications in the 
  508.               form of a histogram on the high resolution graphics screen.  
  509.    DATA REQUIRED:  A DATA-ONE datafile.  The full name of the variable to 
  510.               be graphed, its units, and the width of each cell in the 
  511.               histogram.  
  512.    EXAMPLE:   What is the distribution of scores on the last exam?
  513.    COMMENT:   You determine the appearance of the report by entering a label
  514.               for the horizontal axis and the interval width.  To obtain a 
  515.               printed copy on the IBM, Epson, Okidata or Prowriter printer
  516.               (specified in "EPISTAT" when you setup) press key F1.  Press 
  517.               F10 to return to the program.  
  518.  
  519.                                                                          11
  520.  
  521.  
  522.  
  523.  
  524.     (12)                          "LNREGRES" *
  525.            
  526. A. Linear regression:
  527.    PURPOSE:   To calculate the least-squares regression line for paired 
  528.               samples.  
  529.    DATA REQUIRED:  A DATA-ONE datafile and the sample numbers of the 
  530.               predictor and dependent variables.  
  531.    EXAMPLE:   What is the regression line relating IQ to income?
  532.    COMMENT:   The regression line is displayed in the form Y = b + aX. 
  533.               The T distribution is applied to determine if the calculated
  534.               slope is significantly different than zero.  The T value, 
  535.               degrees of freedom and p value are shown.
  536.  
  537. REFERENCE: Colton p. 199. 
  538.  
  539. B. Data transformations:
  540.    PURPOSE:   To change a data set in a regular way,  either to normalize
  541.               it or to identify a non-linear relationship between two
  542.               variables.
  543.    DATA REQUIRED:  A DATA-ONE datafile with fewer than 28 variables in it.
  544.    EXAMPLE:   In my sample, IQ and income were not linearly related, so I
  545.               will try a transformation to see if they are related 
  546.               logarithmically.
  547.    COMMENT:   Nine transformations are available:
  548.               1.  Ax + B                          6.  A * ln(x) + B
  549.               2.  A(x)squared + B                 7.  ln(x/(100-x))
  550.               3.  A*square root(x) + B            8.  Sample A + Sample B
  551.               4.  A/x + B                         9.  Sample A * Sample B
  552.               5.  x - mean
  553.  
  554.               Specify the value for A and B and the program will apply that
  555.               formula to each value in the sample you want transformed.  It 
  556.               then adds this transformed sample to the datafile as an 
  557.               additional column/variable.  You may save the new datafile
  558.               containing this transformed variable under the old name or
  559.               under a new datafile name as you choose.
  560.  
  561.  
  562.     (13)                          "MHCHISQR"
  563.  
  564.    PURPOSE:   To evaluate the relationship between two discrete variables 
  565.               while controlling for the effect of a third variable.  
  566.    DATA REQUIRED:  The names of the factors you wish to test for and control 
  567.               for as well as the counts of cases and controls that have and
  568.               do not have the test and control variables.  This is the 
  569.               equivalent of a series of 2 by 2 tables, one for each category
  570.               of the control variable.
  571.    EXAMPLE:   Is there a relationship between smoking and lung cancer, 
  572.               controlled for occupation?  
  573.    COMMENT:   The factor you are testing must be dichotomous, but the control
  574.               variable may have more that 2 categories.  The Chi-square value,
  575.               degrees of freedom, and p value are displayed.  Also shown
  576.               are an odds ratio and 95% confidence limits on the odds ratio.
  577.  
  578.    REFERENCE: Schlesselman, pp. 183,206.
  579.  
  580.                                                                         12
  581.  
  582.  
  583.     (14)                          "MHCHIMLT" *
  584.  
  585.    PURPOSE:   To evaluate the relationship between cases and controls and a  
  586.               test factor when each a case is matched with 2 or more controls.
  587.    DATA REQUIRED:  A DATA-ONE datafile or manually entered summary data.  If 
  588.               using DATA-ONE, a case sample and a 2 or more control samples 
  589.               should be present.  Data is coded as "1" for factor present, 
  590.               and "0" for factor absent in each case and control sample.  
  591.    EXAMPLE:   Is there a relationship between illness and eating raw potatoes?
  592.    COMMENT:   The Chi-square value, degrees of freedom and p value are 
  593.               displayed.  Also shown are an odds ratio and 95% confidence 
  594.               limits on the odds ratio.  This test does not apply if each 
  595.               case is matched with a different number of controls.  
  596.  
  597.    REFERENCE: Fleiss, p. 125.
  598.  
  599.  
  600.      (15)                           "MCNEMAR"
  601.  
  602.    PURPOSE:   Also called a paired Chi-square test, McNemar's test evaluates 
  603.               a relationship between two variables by analyzing the number 
  604.               of discordant PAIRS.  
  605.    DATA REQUIRED:  The name of the factor being tested in CASES and CONTROLS
  606.               and the number of pairs that belong in each of 4 cells.
  607.    EXAMPLE:   In twins in which one developed a stroke and the other did not,
  608.               is there a relationship between high-fat diet and stroke?
  609.    COMMENT:   The Chi-square value is calculated using Yates correction, and 
  610.               degrees of freedom and p value are displayed.  Also shown are an 
  611.               odds ratio and 95% confidence limits on the odds ratio.  
  612.  
  613.    REFERENCE: Schlesselman, p. 210.
  614.  
  615.  
  616.     (16)                            "NORMAL" *
  617.  
  618. A. Comparing a sample mean to the population mean:
  619.    PURPOSE:   To see if your sample mean is different from a known population.
  620.    DATA REQUIRED:  A DATA-ONE datafile and a known population mean.
  621.    EXAMPLE:   Is the mean blood pressure in my sample statistically different
  622.               from the U.S. population mean?
  623.    COMMENT:   The mean for the sample and the p value are displayed.
  624.  
  625. B. Percent of test values in a given range:
  626.    PURPOSE:   To determine the percent of sample values that will fall between 
  627.               two values in a normally distributed population.
  628.    DATA REQUIRED:  The mean and standard deviation of the population being
  629.               sampled.  The upper and lower limits of the range in question.
  630.    EXAMPLE:   If the population mean height is 70 inches and the standard 
  631.               deviation is 3 inches, what proportion of the population are 
  632.               at least 65 inches but no more than 73 inches tall?
  633.               Answer:  79.4 % of the population.
  634.  
  635. C. Z value:
  636.    PURPOSE:   To evaluate the p value associated with a known Z value.
  637.    DATA REQUIRED:  The known Z value.
  638.    COMMENT:   A two-tailed p value is returned.
  639.  
  640.                                                                          13
  641.  
  642.  
  643.  
  644.  
  645.     (17)                           "POISSON"
  646.  
  647.    PURPOSE:   To determine the probability of a certain number of cases or 
  648.               events, when the expected rate is known but the number of 
  649.               times when the case or event did not occur cannot be counted.  
  650.    DATA REQUIRED:  The number of cases observed and the expected number of
  651.               cases (calculated as expected rate * time interval).
  652.    EXAMPLE:   Is it unusual for lightning to strike 5 people in one county 
  653.               this year, given that in the last 5 years lightning has struck 
  654.               only 8 people in this county?
  655.               Answer:  p = .024
  656.  
  657.    COMMENT:   The ONE-tailed probability of observing the given number AND
  658.               all more extreme cases is displayed.  
  659.              
  660.  
  661.     (18)                           "RANDOMIZ"
  662.  
  663. A. Survey sample:
  664.    PURPOSE:   To provide a series of random numbers to aid in selecting a
  665.               survey sample from a large number of possible respondents.
  666.    DATA REQUIRED:  The smallest number and the largest number you want,
  667.               and the number of random numbers between those values you
  668.               want selected.
  669.    EXAMPLE:   I want to survey 100 individuals from the pages of the 
  670.               telephone book.  The telephone book has 700 pages so I will
  671.               ask for 100 numbers between 1 and 700 and then phone the
  672.               tenth person on each of the randomly selected pages.
  673.  
  674. B. Unpaired case-control sample:
  675.    PURPOSE:   To assign subjects to two equal groups randomly.
  676.    DATA REQUIRED:  The total number of subjects in the study.
  677.    EXAMPLE:   Assign 50 patients to receive drug A and 50 to receive drug B.
  678.    COMMENT:   You are also asked if subjects will enter the study over a
  679.               period longer than one month.  If so, you are warned that in
  680.               many studies it is preferable to randomize each month's cases
  681.               independently, so that seasonal biases do no creep in.
  682.  
  683. C. Paired case-control sample:
  684.    PURPOSE:   To assign members of pairs to case and control groups randomly.
  685.    DATA REQUIRED:  The total number of pairs.  You must also decide on an
  686.               objective way of deciding which one of each pair is #1 and
  687.               which is #2. 
  688.    EXAMPLE:   Assign 20 pairs of patients to case and control groups randomly.
  689.    COMMENT:   Consecutive order of patients admitted to the hospital is not 
  690.               always a satisfactory method of deciding which of each is #1 
  691.               and which is #2.  Alphabetic criteria, day of week, or other 
  692.               criteria entirely beyond the investigator's control are usually 
  693.               better.  
  694.  
  695.    REFERENCE: Colton, p.259.
  696.  
  697.                                                                         14
  698.  
  699.  
  700.  
  701.     (19)                           "RANKTEST" *
  702.  
  703. A. Rank sum test:
  704.    PURPOSE:   To evaluate the difference between two unpaired non-parametric 
  705.               samples.  Comparable to the unpaired T-test for normally 
  706.               distributed samples. It also specifically applies when 
  707.               quantitative variables are not available but qualitative 
  708.               ranks are.  
  709.    DATA REQUIRED:  A DATA-ONE datafile or the number of observations in each 
  710.               of two samples and the sum of ranks for the first sample.  
  711.    EXAMPLE:   Is the duration of remission different for leukemia patients 
  712.               treated with regimen #1 compared regimen #2?  Duration of 
  713.               remission is measured in months and 8 cases and 10 controls
  714.               have been followed for 5 years.
  715.    COMMENT:   If a DATA-ONE file is used, the medians and sums of ranks are
  716.               displayed for both groups.  The two-tailed exact p value is 
  717.               then calculated.  For large samples ( N1+N2 > 24 ), the normal 
  718.               approximation is used to calculate probabilities.   Note that 
  719.               even non-parametric samples larger than 30 can often be 
  720.               evaluated with parametric tests like the T-test (the central 
  721.               limit theorem).  
  722.  
  723. B. Signed rank test:
  724.    PURPOSE:   To evaluate the difference between two paired non-parametric 
  725.               samples.  Comparable to the paired T-test for normally 
  726.               distributed samples.  It also specifically applies when 
  727.               quantitative variables are not available but qualitative 
  728.               ranks are.  
  729.    DATA REQUIRED:  A DATA-ONE datafile or the number of non-zero differences
  730.               ranked and the sum of negative and then sum of positive-signed 
  731.               ranks.  
  732.    EXAMPLE:   For paired rats from the same litter, does extra dietary
  733.               vitamin E shorten the time it takes to complete a maze?
  734.    COMMENT:   If a DATA-ONE file is used, the medians and sums of ranks are
  735.               displayed for both groups.  The two-tailed exact p value is 
  736.               then calculated.  However, for large samples ( N > 20 ), 
  737.               the normal approximation is used to calculate probabilities.
  738.  
  739.    REFERENCE: Colton, pp. 219-222.
  740.  
  741.                                                                          15
  742.  
  743.  
  744.  
  745.  
  746.  
  747.     (20)                           "RATEADJ" *
  748.  
  749. A. Direct rate adjustment:
  750.    PURPOSE:   To adjust a rate to a standard population for comparison
  751.               to other published rates.
  752.    DATA REQUIRED:  A DATA-ONE datafile that includes one sample containing
  753.               the study rates to by adjusted (e.g. the rate in each age 
  754.               group if age-adjusting).  A second sample must contain the 
  755.               standard population counts for the same groups.  Rates in the 
  756.               first sample may use any denominator (per 1000, per million, 
  757.               etc), as you supply that denominator at the time of the 
  758.               calculation.  
  759.    EXAMPLE:   Studying bladder cancer in Eskimos, you want to age-adjust 
  760.               to the standard U.S. population to compare to other studies.  
  761.    COMMENT:   Direct adjustment may not be appropriate if the number of 
  762.               cases in any one cell is fewer than 5.  
  763.  
  764. B. Indirect rate adjustment:
  765.    PURPOSE:   To adjust sample observations to to a standard population rate 
  766.               for comparison to other published rates.
  767.    DATA REQUIRED:  A DATA-ONE datafile that includes one sample containing 
  768.               the number of cases observed in the study.  A second sample 
  769.               must contain the standard population rates for the same 
  770.               groups.  The standard population rates may use any denominator 
  771.               (per 1000, per million, etc), as you supply that denominator 
  772.               at the time of the calculation.  
  773.    EXAMPLE:   Studying bladder cancer in Eskimos, you find only 2 or 3 cases 
  774.               in several of the younger age groups.  You want to age-adjust 
  775.               to standard U.S. population rates to compare to other studies.  
  776.    COMMENT:   In addition to age-adjusting, RATEADJ will calculate the 
  777.               probability of observing the number of cases (total) that you
  778.               observed in your study.  Enter the number observed and the 
  779.               Expected number will be displayed as well as the one-tailed 
  780.               POISSON probability of this outcome.  The adjusted rate is 
  781.               displayed in the form: ` X times the standard population rate.'
  782.  
  783.    REFERENCE: Colton, pp. 47-51.
  784.  
  785.                                                                           16
  786.  
  787.  
  788.     (21)                           "SAMPLSIZ" 
  789.  
  790. A. Survey sample size:
  791.    PURPOSE:   To determine the sample size required to for a survey sample.
  792.    DATA REQUIRED:  The approximate size of the population from which 
  793.               you plan to draw the sample, your estimate of the rate of the
  794.               study characteristic (the result of your study),  the accuracy
  795.               you require, and the z(alpha) level you wish to test.
  796.    EXAMPLE:   What sample size is required to determine the immunization
  797.               levels in 2 year olds within 1% of the true value, given that
  798.               there are 100,000 2 year-olds in the state, and we believe that
  799.               95% are immunized?  Let z(alpha) correspond to 95% certainty.
  800.               Answer:  N = 1792
  801.    COMMENT:       TP = total population    pi = population proportion
  802.                    d = maximum acceptable error in sample proportion
  803.  
  804.             n = [ z(a)*SQR(pi*(1-pi)) / d ] squared   and   N = n / (1+n/TP)
  805.  
  806. B. Sample size for a paired case-control study:   
  807.    PURPOSE:   To determine the number of cases and controls required for a 
  808.               paired case-control study.
  809.    DATA REQUIRED:  An estimate of the population rate of the study  
  810.               characteristic, the smallest difference you wish to be able to 
  811.               detect, and the z(beta) and z(alpha) levels of certainty you 
  812.               require.  
  813.    EXAMPLE:   Paired rats are fed a normal diet plus or minus a suspected  
  814.               carcinogen.  How many rat pairs must be studied to detect a 
  815.               1% increase in the population cancer rate of 3% , given that 
  816.               z(beta) = 90% and z(alpha) = 95% ?  
  817.               Answer:  N = 3429 
  818.    COMMENT:   
  819.        N = [(z(a)*SQR(pi*(1-pi)) + |z(b)|*SQR(PT*(1-PT))) / (PT-pi)] squared
  820.  
  821.    REFERENCE: Colton, p. 161.
  822.  
  823. C. Sample size for an unpaired case-control study:   
  824.    PURPOSE:   To determine the number of cases and controls required for an 
  825.               unpaired case-control study.
  826.    DATA REQUIRED:  An estimate of the Control group rate (used as the 
  827.               population rate), whether the test group will be higher or lower 
  828.               than the controls, the smallest difference you wish to be able to 
  829.               detect, and the z(beta) and z(alpha) levels of certainty you 
  830.               require.  
  831.    EXAMPLE:   How many case and control animals should be studied to determine 
  832.               if a new antibiotic cures cattle disease 10% better than current 
  833.               standard therapy?  Current therapy cures 70% of animals. Let 
  834.               z(beta) = 90% and z(alpha) = 95%.
  835.               Answer:  392 cases and 392 controls.
  836.    COMMENT:   
  837.             [(z(a)*SQR(2*pi*(1-pi)) + |z(b)|*SQR(PT*(1-PT)+PC*(1-PC))]
  838.        N = [-----------------------------------------------------------] squared
  839.                                      (PT - PC)  
  840.         
  841.    REFERENCE:  Fleiss, p 41 and Schlesselman, p. 168.
  842.  
  843.                                                                      17
  844.  
  845.  
  846.  
  847.  
  848.  
  849.     (22)                           "SCATRGRM" *
  850.  
  851.    PURPOSE:  To graph the relationship between paired variables according to 
  852.              user specifications on the high resolution graphics screen.  To 
  853.              display the linear regression line.  
  854.    DATA REQUIRED:  A DATA-ONE datafile containing two paired variables.  The 
  855.              minimum and maximum values in each variable are displayed.  You 
  856.              specify the labels and units to be printed on horizontal and 
  857.              vertical axes.  Then enter an interval width for each variable.  
  858.    EXAMPLE:  Graph the relationship between advertising expenditures and
  859.              gross sales based on the last 10 years of experience at 
  860.              Company A.  
  861.    COMMENT:  Be sure to pick an interval width that will result in 20 or 
  862.              fewer intervals on the vertical, and 60 or fewer intervals on 
  863.              the horizontal axis.  To display the linear regression line 
  864.              press key F5.  The formula for this regression line is 
  865.              displayed in LNREGRES (number 12 above).  To obtain a printed 
  866.              copy on the IBM, Epson, Okidata or Prowriter (specified in 
  867.              "EPISTAT"), press key F1.  Press key F10 to return to the 
  868.              program.  
  869.  
  870.  
  871.  
  872.     (23)                            "SELECT" *
  873.  
  874.    PURPOSE:   To select a subset of a datafile based on user specifications.  
  875.               Data can be selected for printing, or to create a new datafile 
  876.               on disk.  
  877.    DATA REQUIRED:  A DATA-ONE datafile and knowledge of the selection 
  878.               criteria you want to apply.  One can select on any variable 
  879.               with "AND" and "OR" specifications.  As many as 10 selection 
  880.               criteria can be set at one time.  SELECT assumes that "AND"s 
  881.               are in parentheses.  For example: 
  882.           "SELECT IF Sample #1>10 AND Sample #2=1 OR Sample #1<Sample #3"
  883.  
  884.              is interpreted as meaning: 
  885.  
  886.          "SELECT IF (Sample #1>10 AND Sample #2=1) OR Sample #1<Sample #3"
  887.  
  888.    EXAMPLE:   You have a datafile containing all of the quality control 
  889.               results for a particular machine part this month.  You want a 
  890.               new file created which contains only those parts that failed 
  891.               specifications.  You may select all the samples that exceed 
  892.               quality criteria.  
  893.  
  894.                                                                        18
  895.  
  896.  
  897.   
  898.  
  899.  
  900.     (24)                             "T-TEST" *
  901.  
  902. A. Paired and unpaired T-test:
  903.    PURPOSE:   To determine if the means of two samples are statistically 
  904.               different.  
  905. DATA REQUIRED:  A DATA-ONE datafile with the two samples to be compared.  
  906.               If a paired test is being performed, both samples must contain 
  907.               the same number of items.  
  908.    EXAMPLE:   Is the mean weight gain of a herd fed on new Brand X 
  909.               significantly greater than the weight gain of a second herd 
  910.               fed the standard brand feed?
  911.    COMMENT:   The means and variances of the two samples will be displayed, 
  912.               followed by the T value, degrees of freedom, and the p value.  
  913.               For the unpaired T-test, the equality of variances is tested 
  914.               to be sure that the assumptions of the T-test are met.  If 
  915.               the variances are statistically different, the F value 
  916.               supporting that conclusion will be displayed.  The confidence 
  917.               limits on the difference between the two values are also 
  918.               displayed.  
  919.  
  920.    REFERENCE: Snedecor, p. 116.
  921.  
  922. B. T value:
  923.    PURPOSE:   To evaluate the p value associated with a given T value.
  924.    DATA REQUIRED:  The T value and the degrees of freedom.
  925.    
  926.  
  927.  
  928.     (25)                              "XTAB" *
  929.  
  930.    PURPOSE:   To crosstabulate data in 1,2 or 3-way reports.  This provides
  931.               the tabular couterpart of a scattergram.
  932.    DATA REQUIRED:  A DATA-ONE datafile containing at least as many variables 
  933.               as the number of ways you want to crosstabulate.  The minimum 
  934.               and maximum values for each sample will be displayed and then 
  935.               you choose the interval width for each cell of the table.  If 
  936.               you have coded data with sequential integers, choose a width 
  937.               of 1.  If you have quantitative data, it is usually best to 
  938.               choose and interval that will result in fewer than 10 cells or 
  939.               the table will be difficult to read.  In addition to choosing 
  940.               the interval, you are offerred the opportunity to label each 
  941.               row and column interval with the label of your choice to make 
  942.               a more readable report.  
  943.    EXAMPLE:   What is the age by sex breakdown of hospitalized cases of 
  944.               meningitis?
  945.    COMMENT:   The crosstab report is printed on screen or printer.  The 
  946.               number of missing values displayed is the number of cases 
  947.               where one or more of the samples involved contained a blank.  
  948.  
  949.  
  950.                                                                       19
  951.  
  952.  
  953.  
  954.  
  955.  
  956.                             THE EXAMPLE DATAFILE
  957.  
  958.  
  959.         An example datafile, named "EXAMPLE", showing a sample of people,       
  960.    their ages and their systolic blood pressures, is included on the EPISTAT   
  961.    disk.  To gain some familiarity with the appearance of an EPISTAT 
  962.    datafile,  follow these steps: 
  963.     
  964.    1.) Press <Ctrl> and <Alt> and <Del> at the same time (or load BASICA, 
  965.    then type RUN "EPISTAT") to run the introductory program.  Do not change 
  966.    the default configuration for now, but move on to the main menu.  
  967.  
  968.    2.) Choose Menu option 3 to run specific programs in the EPISTAT package.  
  969.  
  970.    3.) Choose program number 2 to run "DATA-ONE", the main data entry and       
  971.        printing program in EPISTAT.  
  972.  
  973.    4.) Choose Menu option 6 to load data from disk.  Then enter the filename 
  974.        EXAMPLE without any quotation marks.  
  975.   
  976.    5.) Return to the main DATA-ONE menu and choose option 4 to print this 
  977.        datafile on your screen or printer.   Print it once in input order, 
  978.        then try printing it sorted by Sample 2 or 3.  
  979.   
  980.    6.) Choose menu option 7 to exit DATA-ONE ,then enter Y because EXAMPLE      
  981.        was already saved to disk.  Choose other EPISTAT program numbers to    
  982.        run ANOVA, HISTOGRM, LNREGRES, SCATRGRM, or XTAB with this datafile.  
  983.  
  984.   7.) Return to DATA-ONE to enter your own data for analysis.
  985.  
  986.                                                                      20
  987.  
  988.  
  989.  
  990.  
  991.                                NOTICE
  992.  
  993.    ---------------------------------------------------------------------
  994.    Users may copy EPISTAT and distribute it to others on the following
  995.    conditions:
  996.      1.  The programs are not modified in any way.
  997.      2.  Individual programs are not distributed separately.
  998.      3.  No fee is charged for copying or distribution.
  999.    ---------------------------------------------------------------------
  1000.  
  1001.  
  1002.                      ====USER-SUPPORTED SOFTWARE====                  
  1003.  
  1004.         The concept of user-supported software is based on three
  1005.    principles:
  1006.  
  1007.      1.  The value and utility of a software package is best assessed
  1008.          by each user on his or her own system with his or her own data.
  1009.          Only after using a program can one determine whether it serves
  1010.          one's personal applications, needs, and tastes.
  1011.    
  1012.      2.  The creation of independent personal computer software requires
  1013.          a substantial commitment of time and effort.  Rather than
  1014.          replicate this effort time after time, the computing community
  1015.          can and should support individual creative efforts.
  1016.  
  1017.      3.  By encouraging users to copy programs, rather than spending
  1018.          large sums on copy-protection, authors can supply quality
  1019.          software at reduced cost.  Users will support useful programs.
  1020.                                
  1021.  
  1022.         If after using EPISTAT, you find it of value, your contribution
  1023.         in any amount will be appreciated ( $25 suggested ).  If you are
  1024.         interested in a more sophisticated statistical package, write or
  1025.         call about the new TRUE EPISTAT.
  1026.  
  1027.    Send contributions to:
  1028.  
  1029.                           Tracy L. Gustafson, M.D.
  1030.                           2011 Cap Rock Circle
  1031.                           Richardson, Texas    75080
  1032.                           214-680-1376
  1033.  
  1034.  
  1035.                                  Thank you.
  1036.  
  1037.